实测 Kimi 新品:前端设计,追平 Gemini 3 Pro
实测 Kimi 新品:前端设计,追平 Gemini 3 ProKimi 年前放大招了。
Kimi 年前放大招了。
阿里巴巴推出了Qwen3-Max-Thinking,这是阿里千问系列目前能力最强的旗舰级推理模型,在19项权威基准测试中,Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型打得有来有回,搭配测试时扩展(TTS)能力后,能在不少基准测试上达到SOTA。
文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。
关注我比较久的朋友可能都知道,我用 AI 有个习惯。
大家好,我是鲁工。 上周发布了一篇关于如何在Antigravity中组合Claude Opus 4.5和Gemini 3 Pro进行交叉验证的文章,读者反馈不错。
大家好,我是鲁工。 长期以来,Gemini CLI在与Claude Code等AI编程工具竞争时都面临劣势。 随着上个月Gemini 3 Pro发布,谷歌同时也推出了全新的AI编程IDE Antigr
最近,视频会议软件公司 Zoom 发布了一条出人意料的消息:他们宣称在“人类最后的考试”(Humanity s Last Exam,简称 HLE)这个号称当前 AI 领域最具挑战性的基准测试上,取得了 48.1% 的成绩,比此前由 Google Gemini 3 Pro(带工具)保持的 45.8% 高出 2.3 个百分点。
6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。
红色警报拉响,OpenAI是真急了:30天,GPT-5.2系列紧接着GPT-5.1而来,这次还专门强化了打工能力。这是GPT-5.1 Thinking和GPT-5.2 Thinking做人力资源表格的对比:虽然版本号只加了0.1,但是在多个实用领域都更强了:做表格、做PPT、写代码、理解长文档、调用工具、处理复杂多步骤项目……
OpenAI十周年,那个地表最强的AI,又回来了!刚刚,OpenAI深夜炸场!GPT-5.2震撼发布,全球AI王座再次易主。新一代GPT-5.2「全家桶」直接把谷歌Gemini 3 Pro踩在脚下,专业实力更是堪比人类专家。